EvoClass
IA012

Profundización en modelos de lenguaje grandes

Agentes autónomos, RLHF y alineación de seguridad

Lección
Lección 8
Instructor
Tutor de IA

Objetivos de aprendizaje

  • Analizar los componentes arquitectónicos de los agentes GUI, incluyendo módulos de planificación, toma de decisiones y reflexión en sistemas multiagente.
  • Explicar los mecanismos del Aprendizaje por Refuerzo (RL) y RLHF, especialmente el papel de los modelos de recompensa y PPO en alinear el comportamiento del agente con los valores humanos.
  • Evaluar los riesgos de seguridad y problemas de confiabilidad en agentes autónomos, incluyendo errores fuera de distribución (OOD), ataques de fuga y distracciones ambientales.